Face Animation是计算机视觉中最热门的主题之一,在生成模型的帮助下取得了有希望的性能。但是,由于复杂的运动变形和复杂的面部细节建模,生成保留身份和光真实图像的身份仍然是一个关键的挑战。为了解决这些问题,我们提出了一个面部神经量渲染(FNEVR)网络,以充分探索在统一框架中2D运动翘曲和3D体积渲染的潜力。在FNEVR中,我们设计了一个3D面积渲染(FVR)模块,以增强图像渲染的面部细节。具体而言,我们首先使用精心设计的体系结构提取3D信息,然后引入一个正交自适应射线采样模块以进行有效的渲染。我们还设计了一个轻巧的姿势编辑器,使FNEVR能够以简单而有效的方式编辑面部姿势。广泛的实验表明,我们的FNEVR在广泛使用的说话头基准上获得了最佳的总体质量和性能。
translated by 谷歌翻译
最近无人驾驶飞行器(UAV)已广泛部署在各种真实的场景,如灾难救援和包裹交付。这些工作环境中的许多都是不确定和动态障碍的非结构化。保持UAV碰撞经常发生。非常希望具有高灵敏度的无人机,以调整其用于适应这些环境动态的动作。但是,无人机敏捷性受其电池电量输出的限制;特别是,UAV的电力系统不能知道其在运动规划中的实际功率需求,而需要随着环境和UAV条件而动态变化。在运动规划中,难以准确地对准电源需求的电源。这种不匹配会导致无人机的电源不足,并导致延迟运动调整,在很大程度上增加了障碍物的碰撞风险,因此破坏了无人机敏捷性。为提高无人机敏捷性,开发了一种新颖的智能电源解决方案,敏捷增强电源(AEPS),以主动准备适当的电量,以支持具有增强敏捷性的运动规划。该方法在物理电力系统和UAV规划之间构建了一座桥梁。凭借敏捷增强的运动规划,将提高复杂工作环境中的UAV的安全性。为了评估AEPS有效性,采用了“社区安全巡逻任务”的任务,采用了意外障碍;通过燃料电池,电池和电容器的混合集成来实现电源。通过成功和及时的电源,提高任务成功率和系统安全性,验证了AEP在提高无人机敏捷性方面的有效性,提高了任务持续时间。
translated by 谷歌翻译
插槽填充和意图检测是自然语言理解领域的两个基本任务。由于这两项任务之间存在很强的相关性,因此以前的研究努力通过多任务学习或设计功能交互模块来建模它们,以提高每个任务的性能。但是,现有的方法都没有考虑句子的结构信息与两个任务的标签语义之间的相关性。话语的意图和语义成分取决于句子的句法元素。在本文中,我们研究了一个多透明的标签改进网络,该网络利用依赖性结构和标签语义嵌入。考虑到增强句法表示,我们将句子的依赖性结构介绍到我们的模型中。为了捕获句法信息和任务标签之间的语义依赖性,我们将特定于任务的特征与相应的标签嵌入通过注意机制相结合。实验结果表明,我们的模型在两个公共数据集上实现了竞争性能。
translated by 谷歌翻译
机器学习中的不确定性量化(UQ)目前正在引起越来越多的研究兴趣,这是由于深度神经网络在不同领域的快速部署,例如计算机视觉,自然语言处理以及对风险敏感应用程序中可靠的工具的需求。最近,还开发了各种机器学习模型,以解决科学计算领域的问题,并适用于计算科学和工程(CSE)。物理知识的神经网络和深层操作员网络是两个这样的模型,用于求解部分微分方程和学习操作员映射。在这方面,[45]中提供了专门针对科学机器学习(SCIML)模型量身定制的UQ方法的全面研究。然而,尽管具有理论上的优点,但这些方法的实施并不简单,尤其是在大规模的CSE应用程序中,阻碍了他们在研究和行业环境中的广泛采用。在本文中,我们提出了一个开源python图书馆(https://github.com/crunch-uq4mi),称为Neuraluq,并伴有教育教程,用于以方便且结构化的方式采用SCIML的UQ方法。该图书馆既专为教育和研究目的,都支持多种现代UQ方法和SCIML模型。它基于简洁的工作流程,并促进了用户的灵活就业和易于扩展。我们首先提出了神经脉的教程,随后在四个不同的示例中证明了其适用性和效率,涉及动态系统以及高维参数和时间依赖性PDE。
translated by 谷歌翻译
已知基于优化的3D对象跟踪是精确且快速的,但对大型框架间位移敏感。在本文中,我们提出了一种快速有效的非本地3D跟踪方法。基于观察到错误的局部最小值主要是由于平面外旋转引起的,我们提出了一种混合方法,该方法将非本地和局部优化的不同参数结合在一起,从而在6D姿势空间中有效地进行非本地搜索。此外,为姿势优化提出了一种预先计算的基于强大轮廓的跟踪方法。通过使用带有多个候选对应的长搜索线,它可以适应不同的帧位移而无需粗到精细的搜索。在预计算之前,可以非常快速地进行姿势更新,从而使非本地优化实时运行。我们的方法优于大小位移的所有先前方法。对于大型位移,精度得到了极大的提高($ 81.7 \%\; \ text {v.s。} \; 19.4 \%$)。同时,只有CPU可以实现实时速度($> $ 50fps)。源代码可在\ url {https://github.com/cvbubbles/nonlocal-3dtracking}中获得。
translated by 谷歌翻译
我们制定并测试一种使用概括的多语言模型使用新兴通信(EC)的技术,以改进现代无监督的NMT系统,尤其是对于低资源语言。有人认为,目前在NLP上的主要范式仅在文本语料库上进行预处理,不会产生强大的自然语言理解系统,并且强调了对接地,面向目标和互动语言学习的需求。在我们的方法中,我们将现代的多语言模型(Mbart,Liu etal。2020)嵌入到EC图像引用游戏中,其中该模型被激励使用多语言世代来完成视力基础的任务,并假设有假设是这将使多种语言与共享的任务空间保持一致。我们提出了EC微调的两种变体(Steinert-Threlkeldet。Al。2022),其中一种在6/8翻译设置中优于基于反射的基线,并证明对尼泊尔和尼泊尔和尼泊尔和低资产的语言特别有益僧伽罗。
translated by 谷歌翻译
智能辅助系统可以导航盲人,但其中大多数只能给出非直觉的提示或效率低下的指导。基于计算机视觉和颤振的编码,本文提出了一个交互式系统,为盲人提供直观的空间认知。与基于语音提示的传统听觉反馈策略不同,本文首先引入了一种振动编码的反馈方法,该方法利用了触觉神经途径,并使用户能够与操纵辅助设备以外的对象进行交互。基于此策略,3D空间对象定位采用了基于RGB-D摄像机的可穿戴视觉模块,这有助于在真实环境中进行准确的感知和快速对象定位。目标盲人的实验结果表明,与主流语音及时反馈方案相比,纤维触觉反馈将任务的完成时间降低了25%。拟议的对象定位系统提供了更直观的空间导航和舒适的耐磨性,以提供盲目帮助。
translated by 谷歌翻译
语言的感知毒性可能会因某人的身份和信仰而有所不同,但是在收集有毒语言数据集时往往忽略这种变化,从而导致数据集和模型偏差。我们寻求理解谁,为什么,以及毒性注释的偏见背后。在两个在线研究中具有人口统计地和政治上的参与者,我们调查了注释者身份(世卫组织)和信仰的影响(为什么),从社会心理学研究中汲取仇恨言语,自由言论,种族主义信念,政治倾向等。我们解除了通过考虑三个特征的帖子作为毒性的毒性:反黑色语言,非洲裔美国英语(AAE)方言和粗俗。我们的结果显示了注释者身份和信仰之间的强有力的协会及其毒性评级。值得注意的是,更保守的注释者和那些对我们的种族信仰规模的评分的人不太可能对毒黑语言归因于毒性,但更有可能将AAE归因于毒性。我们还提供了一个案例研究,说明了流行的毒性检测系统的评级如何自然地反映特定的信念和观点。我们的调查结果要求社会变量中的毒性标签,这提高了对有毒语言注释和检测的巨大影响。
translated by 谷歌翻译
深入学习被证明是通过物理信息的神经网络(PINNS)求解部分微分方程(PDE)的有效工具。 Pinns将PDE残差嵌入到神经网络的损耗功能中,已成功用于解决各种前向和逆PDE问题。然而,第一代Pinns的一个缺点是它们通常具有许多训练点即使具有有限的准确性。在这里,我们提出了一种新的方法,梯度增强的物理信息的神经网络(GPInns),用于提高Pinns的准确性和培训效率。 GPInns利用PDE残差的梯度信息,并将梯度嵌入损耗功能。我们广泛地测试了GPinns,并证明了GPInns在前进和反向PDE问题中的有效性。我们的数值结果表明,GPInn比贴图更好地表现出较少的训练点。此外,我们将GPIn与基于残留的自适应细化(RAR)的方法组合,一种用于在训练期间自适应地改善训练点分布的方法,以进一步提高GPInn的性能,尤其是具有陡峭梯度的溶液的PDE。
translated by 谷歌翻译
本文关注的是将许多预训练的深神经网络(DNN)(称为检查点)排名,以将学习转移到下游任务。由于广泛使用了DNN,我们可能很容易从各种来源收集数百个检查站。他们中的哪个将最好的人转移到我们感兴趣的下游任务?为了彻底回答这个问题,我们建立了一个神经检查点排名基准(Neucrab),并研究一些直观的排名措施。这些措施是通用的,适用于不同输出类型的检查点,而无需知道如何对哪个数据集进行检查。它们还产生了低计算成本,使它们实际上有意义。我们的结果表明,检查点提取的特征的线性可分离性是可传递性的强烈指标。我们还达到了一种新的排名NLEEP,这在实验中带来了最佳性能。
translated by 谷歌翻译